《DAY 1》震撼揭秘！生成式 AI 的演進：從 GAN 到 Diffusion 的爆發力量

2025 iThome 鐵人賽

DAY 1

生成式 AI

《AI 時代的來臨：生成式 AI 對工作與生活的改變系列第 1 篇

17th鐵人賽

linda0807

團隊熊熊嗚好！

2025-09-01 16:10:37

416 瀏覽

分享至

《DAY 1》

TL;DR 速讀重點

🚀 快速掌握本文精華

生成式 AI 不只「分析」，更能 無中生有

GAN：對抗式訓練，擅長高擬真影像

Diffusion：逐步去噪，擅長多樣與創意的「文生圖」

代表工具與案例：StyleGAN、This Person Does Not Exist、Midjourney、DALL·E 2

下一步（Day 2）：大型語言模型（LLM）如何理解語意與推理

前言：AI 不再只是「分析」，更能「創造」

過去，我們對 AI 的印象多半停留在資料分析、模式識別與預測。
近年來，生成式 AI（Generative AI） 迅速崛起：從逼真的人臉影像到充滿風格的插畫、音樂與文本，都能透過模型「創造」出來。

1. 生成對抗網路（GAN）

一場「偽造者」與「鑑賞家」的對決

生成器（Generator）：負責「偽造」，嘗試生成以假亂真的影像/資料
判別器（Discriminator）：負責「鑑定」，區分真假並回饋給生成器

訓練流程（對抗學習）

生成器產生假樣本
判別器判斷真假並回饋
兩者交替訓練、彼此進化
最終生成器可產生 幾可亂真的結果

代表應用

StyleGAN（NVIDIA）：高擬真人臉生成
This Person Does Not Exist：每次刷新一張「不存在」的人臉
Data Augmentation：醫學影像等領域的資料擴充

GAN 訓練流程圖
圖 1：GAN 的生成器與判別器互相對抗、共同進化

✨ 小結：GAN 擅長「寫實」，但訓練可能不穩、易出現模式崩塌（多樣性不足）。

2. 擴散模型（Diffusion）

從混沌到清晰的「還原」藝術

前向過程（Forward）：對清晰圖片逐步加入噪點，直到接近純隨機
反向過程（Reverse）：模型學會一步步去噪，從雜訊「長回」清晰影像

為何適合文生圖？

可結合文字編碼器（如 CLIP/文本嵌入），從噪點出發，朝「文字目標」逐步去噪
Midjourney / DALL·E 2：輸入文字描述即可生成具風格且多樣的圖像

Diffusion 去噪流程圖
圖 2：Diffusion 由 Noise 經反向去噪生成清晰影像

✨ 小結：Diffusion 具 品質穩定＋多樣化 的優勢，尤其擅長文字驅動的創作。

3. GAN vs Diffusion（對照表）

模型	優勢	限制	代表應用
GAN	高度寫實、細節逼真	訓練不穩定、模式崩塌	StyleGAN、BigGAN
Diffusion	多樣性高、訓練較穩定、擅長文生圖	生成步驟多、速度較慢	Stable Diffusion、DALL·E 2、Midjourney